﻿Tehnici de Ingineria Limbajului Natural Curs 4 Tehnologiile textului Prelucrări semantice Curs: Dan Cristea Laboratoare: Diana Trandabăț, Mihaela Onofrei, Daniela Gîfu, Ionuț Pistol Cuvintele îşi precizează sensul în context • Ion se prinse în horă cu o fată cu cosiţe lungi • Când fată iapa ta? • Mă mai dau o dată pe pârtia roşie • I-am dat una peste mână • Maria a dat cartea înapoi • M-am scos… • Mi-am scos măseaua de minte Ontologie: definiție formală • Definiție: O ontologie (de bază) este un tuplu O: = (C; is a; R; s), unde C este un set ale cărui elemente se numesc concepte, is a este o ordine parțială pe C (adică o relație binară is a Í CC, reflexivă, tranzitivă și antisimetrică), R este un set ale cărui elemente sunt numite nume de relații (sau, pe scurt, relații), iar s: R à C+ este o funcție care atribuie fiecărui nume de relație aritatea sa Ontology • The study of ontology – traced back to the work of Plato and Aristotle – development of hierarchical categorisations of different kinds of entities and their distinguishing features: • the well known “tree of Porphyry” identifies animals and plants as sub-categories of living things distinguished by animals being sensitive, and plants being insensitive Plasarea conceptului bone într-o ontologie http://www ontobee org/ontology/AEO?iri=http://purl obolibrary org/obo/AEO 0000085 OWL – un limbaj de descriere a ontologiilor • The World Wide Web Consortium (W3C) set up a standardisation working group to develop a standard for a web ontology language => OWL ontology language standard • OWL is based on Description Logics (DLs): a family of logic-based knowledge representation formalisms that are descendants of Semantic Networks and KL- ONE, but that have a formal semantics based on first order logic Basic things in OWL Basic things in OWL Concepts (classes) Instances (individuals) Properties (roles) Ian Horrocks: Ontologies and the Semantic Web Now-a-days web • Web content consists mainly of distributed hypertext and hypermedia accessed via a combination of keyword based search and link navigation • Its simplicity contributed to its large dissemination and use • But, search engines are still not capable to answer complex queries Semantic Web • The goal of semantic web research: to allow the vast range of web-accessible information and services to be more effectively exploited by both humans and automated tools • Exploitation of the vast web – through RDF and OWL: standard formats for the sharing and integration of data and knowledge— the latter in the form of rich conceptual schemas called ontologies Examples of queries that necessitate semantic processing • The list of presidents of EU countries – for each c, country in EU, find president of c German writers contemporary with Beethoven • One possible solution: – When did Beethoven live? => between T1 and T2 – What are the German writters whose lives intersect with the interval [T1, T2]? Key idea behind the semantic web • Addresses the problem of offering automated reasoning by giving the machine the possibility to achieve semantic reasoning through annotations added to texts and images – through ontologies • Areas: – knowledge representation and reasoning, databases, computational linguistics, computer vision, agent systems Aplicație: Tutore Inteligent • Un sistem care să ajute studentul în actul de învățare – capabil să-și organizeze cunoașterea din domeniu ca o ontologie – capabil să poarte o conversație asupra domeniului Funcționare Situația 1 • Am un text dintr-un domeniu medical => un program e capabil să extragă din el o reprezentare semantică – Și dacă același lucru îl exprim altfel? – Dar dacă aproximativ aceeași informație o găsesc în două tratate diferite? Funcționare Situația 2 • Există o reprezentare semantică a unui domeniu => un program mă ajută să-mi înșusesc acele noțiuni – pot pune întrebări => sistemul răspunde – sistemul întreabă => eu răspund – sistemul generează teste cu opțiuni de răspunsuri – sistemul e capabil să gestioneze corect imagini în Î/R și în teste Funcționare Situația 3 • Protégé e capabil să lucreze cu ontologii => o interfață îi va adăuga funcționalitatea de a “citi” un text – textul descrie o realitate în limbaj natural, care va fi copiată în ontologie Funcționare Situația 4 • MOODLE este un sistem capabil să asiste în procesul de învățare – o interfață îi va adăuga capacitatea de a dialoga cu studentul și de a genera teste Achiziția ontologiei din text Extragerea de ontologii din texte Determinarea relației de hyponimie The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string Lăuta cu arc, precum Bambara ndang, este întinsă și are un gât curbat individual pentru fiecare strună Din: M Hearst (1992) Automatic Acquisition of Hyponyms from Large Text Corpora, ACL Patternuri lexicale NP0 such as {NP1, NP2 (and | or)} NPn implică for all NPi 1 hyponym("author", "Herrick") hyponym("author", "Goldsmith") hyponym("author", "Shakespeare") Patternuri lexicale NP {, NP}* {,} and other NP temples, treasuries, and other important civic buildings => hyponym("temple", "civic building") hyponym("treasury ", "civic building") Patternuri lexicale NP {,} including {NP {,}} * {or | and} NP All common-law countries, including Canada and England => hyponym("Canada", "common-law country") hyponym ("England", "common-law country") Patternuri lexicale NP {,} especially {NP ,}* {or] and} NP most European countries, especially France, England, and Spain => hyponym("France", "European country") hyponym("England", "European country") hyponym("Spain", "European country") Combinarea de ontologii Combinarea (fuziunea) de ontologii Fuziunea de ontologii – definiție • Procesul de fuziune ontologică primește în intrare două (sau mai multe) ontologii sursă și returnează o ontologie care combină ontologiile sursă date Gerd Stumme, Alexander Maedche Ontology Merging for Federated Ontologies on the Semantic Web Abordări • Abordările se bazează pe euristici de potrivire sintactică și semantică care derivă din comportamentul inginerilor ontologi atunci când se confruntă cu sarcina de a îmbina ontologii • Tehnici statistice ori neuronale, care judecă similaritatea conceptelor și asemănarea brută a instanțelor Viziuni comune ori diferite asupra lumii, combinare Cum se pot combina termenii? • Fiind dați doi termeni, câte unul din fiecare ontologie: – Termenii sunt incompatibili (i e , identificarea acestora ar cauza probleme de definire și relaționale între ceilalți termeni) - caz în care: (1) unul dintre termeni trebuie respins și nu trebuie încorporat, (2) unul dintre termeni și alții care depind de el trebuie să fie redefiniți, (3) trebuie creată o "microteorie" separată, în care termenii și toți ceilalți termeni care depind de ea există în paralel (4) poate fi încorporată o versiune mai slabă a termenului infracțional, fără definițiile sau relațiile care au cauzat inconsecvența Protégé • Mediu online de construire și editare de ontologii și creare de sisteme inteligente – Protégé Desktop supports creation and editing of one or more ontologies in a single workspace via a completely customizable user interface – Visualization tools allow for interactive navigation of ontology relationships – Advanced explanation support aids in tracking down inconsistencies – Operations available include: ontology merging, moving axioms between ontologies, rename of multiple entities, and more https://protege stanford edu/ Protégé Representing medical knowledge in Protégé “Fluxul sanghin cerebral la adult este de circa 750-1000ml/min, reprezentând 15-20% din debitul cardiac ” Generare de teste plecând de la o ontologie Generarea întrebărilor Generarea întrebărior (question generation – QG): un subdomeniu al IA • Generarea de întrebări multi-variante din ontologii (MCQG) – pentru evaluarea studenților – beneficii pentru instructori: • sarcina de a construi manual MCQ pentru teste este greoaie și consumatoare de timp • este adesea dificil să se dezvolte MCQ de înaltă calitate – sisteme de MCQ care pleacă de la ontologii reușesc să genereze articole MCQ • DAR: cât de bine slujesc aceste sisteme procesul educațional? Generatorul de întrebări • Scopul întrebărilor: – evaluare, – revizuiri sau întrebări de studiu, – exercițiul de a pune întrebări, – întrebări de rezolvare a problemelor, – întrebări generale într-un domeniu specific, cum ar fi turismul, – sau întrebări dintr-un domeniu deschis Sisteme de QG • Pe bază de sintaxă (unele dintre primele): – parser de limbaj natural folosit pentru a analiza sintaxa frazei și a identifica componentele majore care pot fi folosite pentru a forma o întrebare – dezavantaje: • propoziții sintactic ambigue (singura modalitate de a analiza corect astfel de propoziții este de a înțelege semnificația lor) • sistemul este dependent de limbă – avantaje: • este independent de domeniu, astfel încât pentru a formula o întrebare în orice domeniu trebuie formulată o propoziție în limba naturală dată QG systems • Abordări bazate pe semantică - de obicei, dependente de domeniu: folosesc un model semantic al domeniului pentru a genera întrebări – OntAWare: • folosește o ontologie și generează întrebări bazate pe cunoașterea relațiilor dintre clasă-subclasă și dintre clasă- instanță • oferă, printre alte funcționalități pentru redactarea conținutului educațional, generarea semiautomată a obiectelor de învățare, inclusiv întrebări • folosește relațiile de subsumare între clase pentru a genera întrebări, cum ar fi: "Care dintre următoarele elemente este (sau nu este) un exemplu al conceptului X?” Patternuri în generarea testelor • Teste generate pe baza cunoștințelor de domeniu exprimate în ontologii OWL: – un număr de șabloane definite pentru întrebări sunt utilizate de sistem pentru a genera elementele de testare Žitko B, Stankov S, Rosić M, Grubišić A (2009) Dynamic test generation over ontology-based knowledge representation in authoring shell Expert Systems with Applications 36:8185–8196 Chatbot MOODLE • Mediu educațional open-source pentru crearea de cursuri online și educație la distanță • Moodle (modular object-oriented dynamic learning environment) allows for extending and tailoring learning environments using community sourced plugins (Wikipedia) https://moodle org/ Generate student exam tests from medical manuals Relații semantice QuoVadis – a corpus of book characters and their relations • H Sienkiewicz's Quo Vadis • A corpus and a technology – The corpus: developed with master students in CL: • entities of type person and god • relations: coreference, kinship, affective, social – The technology: recognising entities and relations I T A K E Unconference, 7 June 2018 A corpus semantic entities and relations • Type of entities: – persons – gods – groups of persons and gods – body parts • Semantic relations among entities of these types 75 Relations • Anaphoric relations: co-referential; • Non-anaphoric relations: – kinship; – affective; – social 76 Anaphoric relations • coref • coref-interpret • member-of, has-as-member (inverse) • isa, class-of (inverse) • part-of, has-as-part (inverse) • subgroup-of, has-as-subgroup (inverse) • has-name, name-of (inverse) Example: [Lygia]1 was unable to answer, for weeping seized [her]2 anew Acte gathered [the maiden]3 to her bosom, and strove to calm [her]4 excitement coref ; coref-interpret ; coref 77 Kinship relations • parent-of • child-of (inverse of parent-of) • grandparent-of and grandchild-of (inverse) • sibling (symmetrical) • ant-uncle-of, nephew-of (inverse relation) • cousin-of (symmetrical) • spouse-of (symmetrical) • unknown Example: "Pardon me, Lygia For me thou art [ [of a king]2]1 and [ [of Plautius]4]3 “ child-of ; child-of 78 Social relations • superior-of • inferior-of • in cooperation-with • colleague-of • in competition-with • opposite-to Example: [Petronius]1…but to [his]2 misfortune [he]3 [Cæsar himself]4, hence [he]5 roused [his]6 jealousy in competition-with ; coref ; coref ; coref 79 Affective relations • love • loved-by • rec-love • hate • hated by • upset • friendship • worship Example: Vinicius entered Lygia's dungeon and remained there till daylight…Both changed by degrees into sad souls with [each]1 [other]2 rec-love 80 General statistics over the corpus • 7,281 sentences • 146,822 tokens, punctuation included • 171,029 tokens summed up under all relations • 24,636 entity mentions • 22,301 referential relations • 755 AKS relations (Affective + Kinship + Social) • 752 triggers 96 Example: affective relations love and worship 97 Example: affective relations fear-of and hate 98 Vinicius' links with other characters 99 Semantic relations involving Vinicius 100